moss

双人对话生成模型 MOSS 上线,支持零样本语音克隆

在语音生成这一领域,文本到语音(TTS)模型已经能够合成出高度清晰、音色动人的单人朗读语音,极大地推动了内容创作与人机交互的进步。然而,当我们试图将这项技术应用于一些更具动态和表现力的多人对话场景——如播客对话、影视配音或长篇叙事时,传统的单说话人 TTS 模

模型 语音 克隆 双人 moss 2025-11-13 17:47  2